結合聲學與韻律訊息之強健性語者辨認方法 (Combination of Acoustic and Prosodic Information for Robust Speaker Identification) [In Chinese]
نویسندگان
چکیده
語者辨認系統在公共電話網路中,通常會遇到未知不匹配話筒和辨認語料不足的問題。 為增進語者辨認系統對未知話筒之強健性,與有效利用有限語料,我們提出一融合下層聲學 與上層韻律訊息之架構,首先利用(1)最大相似先驗知識內插法(maximum likelihood-a priori knowledge interpolation,ML-AKI)方法估計與補償話筒聲學特性,並以(2)最小 錯誤鑑別式法則(Minimum Classification Error, MCE)訓練語者模型,以拉大不同語者間 聲學模型的距離,與利用(3)韻律訊息特徵分析(eigen-prosody analysis, EPA)為輔助,量 測不同語者間的韻律模型距離,最後利用(4)線性迴歸的方式融合聲學與韻律模型分數得到 最後的辨識結果。 實驗使用 Handset TIMIT(HTIMIT)語料庫,以 leave-one-out 方式輪流使用九種不同 的話筒當作未知話筒,驗證所提出之方法。實驗結果顯示,在有限的訓練與辨認語料情形下, 若以傳統 maximum a priori probability adapted Gaussian mixture model/cepstral mean subtraction(MAP-GMM/CMS)的方法當作 baseline,其平均語者辨認率可達 60.2%。但若結 合 ML-AKI,MCE,EPA 與 MAP-GMM/CMS 方法,則平均辨認率可提升到 79.3%。而若只觀察未知 話筒部份,則平均語者辨識率亦可由 58.3%提升到 74.6%,因此可知所提出之方法無論對已 知話筒和未知話筒皆能有效改善系統之強健性。
منابع مشابه
結合韻律與聲學訊息之強健性漢語語者驗證系統 (Incorporating Prosodic with Acoustic information for Robust Speaker Verification) [In Chinese]
متن کامل
多語聲學單位分類之最佳化研究 (The Study of Acoustic Model Clustering in Multilingual Speech Recognition) [In Chinese]
由於全球化的形成,人與人之間的溝通不再限於同一種語言,因此多語的語音辨識也變 的格外的重要。如何有效整合多語的聲學模型是一個關鍵議題,因為一組好的多語聲學 單位將影響辨識結果。本論文提出了一套整合專家背景知識與實際語音分析的方法,來 產生一組新的聲學單位,並且對這組聲學單位的數目,使用差分貝式資訊法則來做最佳 的處理。從訓練好的隱藏式馬可夫聲學模型中,計算其單位間的相似度矩陣,之後透過 語音學和音韻學的知識,限定了各個聲學單位能群化的上限,根據不同限定的群化上 限,使用聚合階層式分群法,來建立不同的結構樹。之後,利用差分貝式資訊法則,將 每個結構樹中發音相近的聲學單位做合併,當差分貝式資訊法則的值小於零的時候,就 停止合併,而新合併成一群的聲學單位則為新的聲學單。我們將用 ForSDAT01 華台雙語 語料庫來實驗評量,而實驗結果顯示,本論文所提出的新方法比只用專家知識所定義的 聲學...
متن کامل雜訊環境下應用線性估測編碼於特徵時序列之強健性語音辨識 (Employing linear prediction coding in feature time sequences for robust speech recognition in noisy environments) [In Chinese]
近幾十年來,無數的學者先進對於此雜訊干擾問題提出了豐富眾多的演算法,略分成兩 大類別:強健性語音特徵參數表示法(robust speech feature representation)與語音模型調適 法(speech model adaptation),第一類別之方法主要目的在抽取不易受到外在環境干擾下 而失真的語音特徵參數,或從原始語音特徵中儘量削減雜訊造成的效應,比較知名的方 法有:倒頻譜平均值與變異數正規化法 (cepstral mean and variance normalization, CMVN)[1]、倒頻譜統計圖正規化法(cepstral histogram normalization, CHN)[2]、倒頻譜平 均值與變異數正規化結合自動回歸動態平均濾波器法(cepstral mean and variance normalization plus auto-r...
متن کامل整合邊際資訊於鑑別式聲學模型訓練方法之比較研究 (A Comparative Study on Margin-Based Discriminative Training of Acoustic Models) [In Chinese]
鑑別式聲學模型訓練在近代自動語音辨識(Automatic Speech Recognition, ASR)中扮演 重要的角色。在許多基於不同思維且能有效地提昇辨識率的鑑別式聲學模型訓練方法陸 續被提出後,對於訓練方法的相關推廣與改進便如雨後春筍般地興起;而這些方法在本 質上,皆是在描述訓練語句與語音辨識器所產生對應詞圖(Word Graph)之間的關係。本 論文首先將統整與歸納近年來所發展的多種鑑別式聲學模型訓練方法,並以三種最具代 表性鑑別式訓練方法:最小化分類錯誤(Minimum Classification Error, MCE)、最大化交 互資訊(Maximum Mutual Information, MMI)、最小化音素錯誤(Minimum Phone Error, MPE)為範例,透過有系統地轉換與化解方程式,得到聲學模型訓練準則的共通表示函 數型態。我們可以發現到,對於...
متن کامل最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]
本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...
متن کامل